古往今来,许多哲学家都探究过这个问题:理解语言的含义是否需要以感官为基础?尽管哲学家们看法不一,但有一点却不言而喻:坚实有效的感官定基(grounding)至少能带来助益。
比如科学家们普遍相信,寒武纪大爆发期间视觉的出现是早期动物演化的关键一步;这不仅能帮助动物更好地找寻食物和躲避捕食者,而且还有助于动物自身的进化。事实上,人类(以及几乎所有动物)的大多数知识都是通过与物理交互的感官体验获取的,比如视觉、听觉、触觉、味觉和嗅觉。这些感官体验是我们理解周围世界的基础,也是帮助我们采取行动和决策的关键。
这些思想不仅仅能用来探究哲学概念,而且也具有实用价值,尤其是近期多模态大型语言模型(MLLM)的发展,更是让视觉表征学习与语言理解来到了实践应用的关注核心。语言模型表现出了非常强大的规模扩展行为,而多模态学习领域的近期进展也很大程度上得益于更大更好的 LLM。
另一方面,人们仍旧没有充分探索视觉组件的设计选择,并且这方面的探索与视觉表征学习的研究有所脱节。这主要是因为这方面的研究非常困难:MLLM 涉及复杂的训练和评估流程,需要考虑的设计选择非常多。
近日,纽约大学谢赛宁和 Yann LeCun 团队以视觉为中心对 MLLM 进行了探索,填补了这一空白;他们还基于这些探索成果构建了 Cambrian-1(寒武纪 1 号)系列模型。(